1 Numeros de punto flotante 



Un numero de de punto flotante de base 6, exceso q con p dfgitos, se representa mediante el par ordenado 
de valores (e, /), denotando (e, /) = / x b e ~ q . 

Aquf, e es un entero (con un rango preestablecido) y / es una fraction con signo. 
En el caso de numeros binarios, 6 = 2. 

Cuando se trabaja con numeros binarios, generalmente se utilizan numeros normalizados. Un numero de 
punto flotante (e, /) esta normalizado si el dfgito mas significativo de la representation es distinto de cero, de 
manera tal que 1/6 < |/| < lo/ = 0yeel menor valor posible. La ventaja de los numeros normalizados es 
que permiten eliminar posibles ambigiiedades (varias formas de representar el mismo numero) . La principal 
desventaja es que las magnitudes pequenas (e.g. 0.00000001) no pueden normalizarse sin producir exponentes 
negativos. 



1.1 Errores 



Es comun, al tratar con numeros de punto flotante, medir el error de un numero utilizando la diferencia 
relativa con respecto al numero verdadero 



Error relativo — 



verdadero — calculado 



verdadero 



Esta medida de error falla cuando el valor verdadero es cero, o cercano a cero. Por ejemplo, al calcular sin(7r) 
tendrfamos (suponiendo tres dfgitos de punto flotante). 



Error relativo — 



sin7r-sin(.314x 10 1 ) 



sm7r 



y, puesto que sin(.314 x 10 1 ) no es exactamente cero, el error relativo serfa infinito. Por esta razon al calcular 
el error relativo es mejor utilizar como denominador max(|x| , |/(x)|) en lugar de f(x). 



1.2 Operaciones con numeros de punto flotante 

El producto de dos numeros de p dfgitos utilizando aritmetica conventional es un numero de 2p o 2p — 1 
dfgitos, pero en el sistema de numeration de punto flotante con p dfgitos solo pueden utilizarse p dfgitos. 
iQue numero se debe utilizar para indicar el resultado?. El sentido comun sugiere utilizar el numero de p 
dfgitos mas cercano al producto. En el caso ambiguo de que existen dos numeros de p dfgitos igualmente 
cercanos al resultado, usualmente se elige el mayor numero. Esto introducce un sesgo, pero en general el 
efecto de este sesgo es insignificante en la practica. 1 

La division es un poco mas complicada, pero el efecto del redondeo es el mismo. Se selecciona el numero de 
p dfgitos mas cercano al cociente matematicamente correcto con un ligero sesgo. 

La suma y la resta requieren en primer lugar la comparacion de los exponenetes, desplazando una parte 
fraccionaria con respecto a la otra antes de ejecutar la suma. Notese que la resta puede producir muchos 
ceros (o solo ceros) en el resultado. 

1 Esto no significa que el error de redondeo es insignificante. Lo que se considera insignificante en la practica es la diferencia 
entre redondear siempre hacia arriba en lugar de hacerlo hacia arriba la mitad de las veces y hacia abajo la otra mitad. 
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1.3 Consideraciones importantes sobre numeros de punto flotante 
1.3.1 Calculo de sumas 



Utilizar el siguiente algoritmo (Formula de suma de Kahan): 

S=x[l] 
c=0 

para j=2 a N { 
y=x[j] - c; 
t=S+y; 
c=(t-S)-y; 
s=t ; 



1.3.2 Calculo de medias y desviaciones estandar 

M=x[l] 
S=0 

para i=2 a N { 
M_prev=M ; 

M=M_prev+ (x [i] -M_prev) /k 
S_prev=S ; 

S=S_prev+ (x [i] -M_prev) * (x [i] -M) 

} 

Mi = a*, M fe = M fe _! e (x k e M fc _i) 0 k 

S 1 ! =0, S k = S k -t © (x k G M fe _i) (8) (x fe e M fe ) 

1.3.3 Comparaciones 

En general, nunca se debe comparar si dos numeros de punto flotante son exactamente iguales (incluso, si 
desde el punto de vista teorica deberfan serlo) debido a que esto es extramadamente improbable. 

Por ejemplo, si se usa una relation de recurrencia x n+1 = f(x n ) en la cual teoricamente x n tiende a un 
lfmite a medida que n — > oo, usualmente es un error esperar a que x n+1 = x n para cierto n, puesto que la 
secuencia x n podrfa ser periodica debido al efecto del redondeo. El procedimiento apropiado es esperar hasta 
que \x n+ i — x n \ < S, para un valor valor conveniente 5; pero como no necesariamente se conoce el orden de 
magnitud de x n es mejor aun esperar hasta que se cumpla 

|^n+l X n | 5^ 6 \x n \ 

e es un numero mucho mas facil de seleccionar. 

El hecho de que el concepto de igualdad estricta es de poca importancia cuando se trabaja con numeros de 
punto flotante implica que que se debe definir una nueva operation, comparacion de punto flotante, la cual se 
utiliza para evaluar los valores relativos de dos cantidades de punto flotante. Pueden utilizarse las siguientes 
definiciones para evaluar numeros de punto flotante u y v. 

• u -< v (e) si y solo si v — u > e max(u, v) 

• u ~ v (e) si y solo si \v — u\ < e max(u, v) 

• u >- v (e) si y solo si u — v > e max(u, v) 
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• u w v (e) si y solo si \v — u\ > emin(ii,u) 

Notese que para cualquier para de numeros de punto flotante u y v se cumple exactamente una de las 
condiciones u -< v (u es definitivamente menor que v), u ~ v(w es aproximadamente igual a w) y u >- f(?i 
es mayor que v). La relacion w w w es algo mas fuerte que u ~ w y podrfa leerse como "w es esencialmente 
igual a i;". Todas estas relaciones estan en funcion de un real positivo e que mide el grado de aproximacion 
considerado. 

Notese tambien que la definition de igualdad aproximada no es una relacion de equivalencia. 

1.4 Numeros binarios de punto flotante formato IEEE 754 

El estandar IEEE 754 define un formato para numeros binarios de punto flotante que considera: 

• Uso de numeros normalizados 

• Uso de numeros no normalizados en ciertos casos (magnitudes pequenas) 

• Casos excepcionales (basicamente Infinitos y valores indeterminados como 0/0). 

El formato sirve para registros binarios de cualquier tamano, aunque especifica de manera precisa los casos 
de 32 y 64 bits. 

El formato divide una palabra de n bits en tres partes, siguiendo el orden dado a continuation: 

• 1 bit para el signo. Se denotara con s el valor del signo (0 o 1) 

• p bits para el exponente. Se denotara con e el valor entero del exponente. 

• q bits para la parte fraccionaria. Se denotara con / la secuencia de bits de la parte fraccionaria. 
La siguiente table muestra los posibles valores de un numero de punto flotante en formato IEE 754. 



Patron de bits 


Valor 


Comentarios 


0 < e < 2 P - 1 


(-l) s x l.f x 2 £ - exceso 


Numeros normalizados. El 

exceso es 2 P_1 — 1 


e = 0; / ± 0 


(-l) s x 0./ x 2 e - exceso 


Numeros subnormalizados. El 

exceso es 2 P_1 — 2 


e = 0; / = 0 


(-l) s x 0.0 


Cero con signo 


s = 0; e = 2P - 1; / = 0 


+INF 


Infinito positivo. Todos los bits 
del exponente en 1 y el resto en 
0. 


s = 1; e = 2P - 1; / = 0 


-INF 


Infinito negative Todos los bits 
del exponente en 1, signo en 1 y 
parte fraccionaria en 0. 


e = 2P - 1; / ^ 0 


NaN 


No numero. Valor 
indeterminado. Se produce al 
hacer operaciones como 0/0 0 
INF-INF. Todos los bits del 
exponente en 1 y al menos un 
bit de la parte fraccionaria en 1. 



En el caso particular de IEEE 754 de precision simple se utilizan palabras de 32 bits con 8 bits para el 
exponente y 23 bits para la parte fraccionaria. En lenguajes de programcion, esto corresponde a float en 
Java, REAL*4 en Fortran y float en la mayorfa de los compiladores de C y C++. 

Para doble precision se utilizan palabras de 64 bits con 11 bits para el exponente y 52 bits para la parte 
fraccionaria. 
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